我们介绍了一种新型的多视图立体声(MVS)方法,该方法不仅可以同时恢复每个像素深度,而且还可以恢复表面正常状态,以及在已知但自然照明下捕获的无纹理,复杂的非斜面表面的反射。我们的关键想法是将MVS作为端到端的可学习网络,我们称为NLMVS-NET,该网络无缝地集成了放射线线索,以利用表面正常状态作为视图的表面特征,以实现学习成本量的构建和过滤。它首先通过新颖的形状从阴影网络估算出每个视图的像素概率密度。然后,这些每个像素表面正常密度和输入多视图图像将输入到一个新颖的成本量滤波网络中,该网络学会恢复每个像素深度和表面正常。通过与几何重建交替进行交替估计反射率。对新建立的合成和现实世界数据集进行了广泛的定量评估表明,NLMVS-NET可以稳健而准确地恢复自然设置中复杂物体的形状和反射率。
translated by 谷歌翻译
联合学习是一种机器学习方法,其中未在服务器上汇总数据,而是根据安全性和隐私性分配给边缘。 Resnet是一个经典但代表性的神经网络,通过学习将输入和输出加在一起的残留功能,成功地加深了神经网络。在联合学习中,服务器和边缘设备之间执行交流以交换权重参数,但是Resnet具有深层和大量参数,因此通信大小变得很大。在本文中,我们将神经颂歌用作重新设计的轻量级模型,以减少联合学习中的沟通规模。此外,我们使用具有不同数量的迭代的神经ODE模型新引入了灵活的联合学习,这与具有不同深度的重新连接相对应。 CIFAR-10数据集用于评估中,与RESNET相比,神经ODE的使用将通信大小降低了约90%。我们还表明,提出的灵活联合学习可以与不同的迭代计数合并模型。
translated by 谷歌翻译
我们提出了一个端到端的移情对话言语综合(DSS)模型,该模型既考虑对话历史的语言和韵律背景。同理心是人类积极尝试进入对话中的对话者,而同理心DSS是在口语对话系统中实施此行为的技术。我们的模型以语言和韵律特征的历史为条件,以预测适当的对话环境。因此,可以将其视为传统基于语言 - 基于语言的对话历史建模的扩展。为了有效地培训善解人意的DSS模型,我们研究1)通过大型语音语料库预审预测的一个自我监督的学习模型,2)一种风格引导的培训,使用韵律嵌入对话上下文嵌入的当前话语,3)对结合文本和语音方式的跨模式的关注,以及4)句子的嵌入,以实现细粒度的韵律建模,而不是通过话语建模。评估结果表明,1)仅考虑对话历史的韵律环境并不能提高善解人意的DSS中的语音质量和2)引入样式引导的培训和句子嵌入模型的言语质量比传统方法更高。
translated by 谷歌翻译
多尺度处理对于图像处理和计算机图形至关重要。光环是多尺度处理中的核心问题。通过扩展Laplacian金字塔以具有边缘保留特性,几种边缘保护分解可以解决局部拉普拉斯滤波(LLF)。它的处理成本很高;因此,提出了快速LLF的近似加速度,以线性插值多个拉普拉斯金字塔。本文通过傅立叶系列扩展进一步提高了精度,称为傅立叶LLF。我们的结果表明,对于相同数量的金字塔,傅立叶LLF具有更高的精度。此外,傅立叶LLF表现出用于内容自适应过滤的参数自适应性能。该代码可在以下网址获得:https://norishigefukushima.github.io/gaussianfourierpyramid/。
translated by 谷歌翻译
我们提出了研究,这是一种新的演讲语料库,用于开发一个可以以友好方式讲话的语音代理。人类自然会控制他们的言语韵律以相互同情。通过将这种“同情对话”行为纳入口语对话系统,我们可以开发一个可以自然响应用户的语音代理。我们设计了研究语料库,以包括一位演讲者,他明确地对对话者的情绪表示同情。我们描述了构建善解人意的对话语音语料库的方法论,并报告研究语料库的分析结果。我们进行了文本到语音实验,以最初研究如何开发更多的自然语音代理,以调整其口语风格,以对应对话者的情绪。结果表明,对话者的情绪标签和对话上下文嵌入的使用可以与使用代理商的情感标签相同的自然性产生语音。我们的研究项目页面是http://sython.org/corpus/studies。
translated by 谷歌翻译